Op deze pagina wordt een statistische techniek gedemonstreerd aan de hand van een voorbeeld. Meer informatie over hoe je deze pagina kan gebruiken vind je in deze handleiding.
De analyse gebeurt met behulp van R en RStudio. Een inleiding tot deze software vind je hier.
Met deze techniek kan je nagaan of een verwachting in een populatie verschillend is van een vooropgestelde waarde.
Onderzoekers meten de variabele jobtevredenheid (\(X\)) aan de hand van een vragenlijst. Deze variabele kan elke waarde aannemen van \(0\) tot \(100\).
Uit een recent grootschalig onderzoek is gebleken dat Belgen gemiddeld \(58\) scoren. Je vraagt je af of leerkrachten in het lager onderwijs hoger scoren dan \(58\).
Je verzamelt gegevens om een antwoord te kunnen formuleren. Daarvoor trek je een steekproef van \(54\) leerkrachten in het lager onderwijs.
De data bij dit voorbeeld kan je met het onderstaande commando importeren in R.
mijn_data <- read.csv("https://statlas.ugent.be/datasets/tevredenheidsstudie.csv")
Inspecteer de data met de functie str()
.
str(mijn_data)
'data.frame': 54 obs. of 6 variables:
$ leeftijd : int 85 56 18 51 60 31 76 68 38 71 ...
$ geslacht : chr "M" "M" "M" "V" ...
$ jobtevr : int 55 55 59 69 48 65 63 69 58 63 ...
$ familietevr : int 50 72 50 64 62 60 67 45 82 48 ...
$ vrije.tijd.tevr: int 50 52 49 54 58 50 61 47 48 65 ...
$ gezond.tevr : int 66 62 57 67 51 58 60 60 66 62 ...
Het object mijn_data
bevat een dataframe met alle gegevens. In dit voorbeeld hebben we enkel de variabele jobtevredenheid nodig. Die kan je apart selecteren uit het dataframe en in een nieuw object stoppen.
jobtevr <- mijn_data$jobtevr
De hypothesen die bij deze toets horen zijn:
\[H_0: \mu_X = \mu_0 \text{, in dit geval } \mu_X = 58 \] \[H_a: \mu_X > \mu_0 \text{, in dit geval } \mu_X > 58 \]
Dit is een eenzijdige toets. Meer uitleg over eenzijdig versus tweezijdig toetsen vind je hier.
De verwachting van de jobtevredenheid onder \(H_0\) kan je ook als een object in R opslaan.
mu_0 <- 58
Met de functie summary()
kan je snel een overzicht van een variabele krijgen.
summary(jobtevr)
Min. 1st Qu. Median Mean 3rd Qu. Max.
48.00 56.00 59.00 60.57 64.75 74.00
Met de functie mean()
is het eenvoudig om afzonderlijk het gemiddelde van de variabele jobtevredenheid in de steekproef van \(54\) leerkrachten te berekenen.
mean(jobtevr)
[1] 60.57407
Deze waarde is wat groter dan \(58\). Met een statistische toets zal je nagaan of het geloofwaardig is dat deze afwijking louter aan toeval te wijten is.
Een visuele samenvatting van jobtevr
kan je bekomen door een boxplot te tekenen.
boxplot(jobtevr)
Je toetst of een verwachting \(\mu_X\) groter is dan een gegeven waarde. De populatievariantie \(\sigma_X^2\) is niet gekend. Je kiest dus voor een t-toets voor één verwachting.
Om een t-toets voor één verwachting te kunnen gebruiken moet voldaan zijn aan volgende assumpties:
\(X\) moet tenminste van intervalniveau zijn. Dat is het geval in dit voorbeeld.
\(X\) moet een normale verdeling volgen of de steekproef moet voldoende groot zijn. Over de verdeling van de variabele is geen informatie gegeven, maar visuele inspectie met qqnorm()
leert je dat de verdeling min of meer normaal is. Hier is bovendien de steekproefgrootte \(n= 54\). De vuistregel is dat \(n\geq30\) moet zijn, dus aan deze voorwaarde is zeker voldaan.
qqnorm(jobtevr)
Vóór je de toets uitvoert dien je een significantieniveau \(\alpha\) te kiezen.
alpha <- 0.10
De t-toets kan je uitvoeren met de functie t.test()
:
t.test(jobtevr, mu=mu_0, alternative="greater", conf.level=1-alpha)
One Sample t-test
data: jobtevr
t = 3.0099, df = 53, p-value = 0.001998
alternative hypothesis: true mean is greater than 58
90 percent confidence interval:
59.46425 Inf
sample estimates:
mean of x
60.57407
Je stelt vast dat de overschrijdingskans \(p= 0.0019977\) kleiner is dan de waarde voor \(\alpha\) die eerder is vastgelegd, namelijk \(\alpha=0.1\). Hieruit concludeer je dat je de nulhypothese moet verwerpen op het \(10\%\) significantieniveau.
Je kan tot dezelfde conclusie komen aan de hand van het betrouwbaarheidsinterval. Je stelt vast dat de waarde \(58\) zich niet in het \(90\%\) betrouwbaarheidsinterval \([59.4642472, \infty{}[\) bevindt. De nulhypothese, die stelt dat de verwachting bij leerkrachten gelijk is aan \(58\), is dus niet compatibel met de geobserveerde data. Je verwerpt bijgevolg de nulhypothese op het \(10\%\) significantieniveau.
Je verwerpt de nulhypothese op het \(10\%\) significantieniveau.